Séminaire les mesures de l’économie
Deux sources principales de données en économie (ainsi qu’en sciences sociales en général)
Distinction importante, car pour les données d’enquêtes, les principes de la statistique (échantillonage, calculs des marges d’erreurs, tests statistiques) doivent être respectés, ce qui n’est pas (forcément) le cas des données administratives.
Un taux de réponse faible (<60%) indique que l’enquête a manqué une partie importante de la population ==> données récoltées ne sont pas représentatives.
“Declining response rates to the LFS (labour force surveys) have made the numbers so volatile that it is impossible to be sure whether employment is rising or falling from one quarter to the next — let alone how the labour market has evolved in the years since the pandemic.” “How flawed data is leaving the UK in the dark”, Financial Times
Exemple: données fiscales (qui permettent les mesures de distribution du revenu), certaines données du marché du travail (ex: Seco et le nombre de chômeurs inscrits), données sur les finances publiques…
Les données administratives ne sont pas récoltées à travers un processus d’échantillonnage. Par exemple, cela ne fait pas sens de calculer les intervalles de confiance pour le PIB ou la dette publique.
Mais cela ne veut pas dire que les données administratives sont exhaustives
La plupart des mesures de l’économie sont des séries temporelles (PIB, emploi, inflation…).
L’analyse des séries temporelles présente certaines particularités par rapport aux données en coupe (à un point donné dans le temps, aussi appelé “cross-sectional data”), notamment car elles ont une tendance temporelle (par exemple exponentielle).
Les séries temporelles ont la particularité de croître à un taux plus ou moins stable dans le temps.
Cela implique une croissance exponentielle
Exemple: imaginons une variable \(x\) qui croît à un taux constant de 3% par an. A \(t = 0\), \(x =2\). A \(t=1\), x augmente de \(2*1.03\) (0.03 étant le taux de croissance auquel on additionne 1):
\(x_{t=1} = 2*1.03\)
Pour \(t=2\), \(x_{t=2} = 2*1.03*1.03 = 2*(1.03)^2\)
Pour \(t=3\), \(x_{t=3} = 2*1.03*1.03*1.03 = 2*(1.03)^3\)
Ainsi de suite, pour la formule générale:
\(x_t = 2*(1.03)^t\). Il s’agit de la formule de croissance exponentielle: \(x_t = x_0 (1+g)^t\), avec \(x_0\) la valeur initiale, \(g\) le taux de croissance et \(t\) le nombre de périodes.
À partir de la formule pour la croissance exponentielle de X, ont peut trouver le taux de croissance:
\[x_t = x_0(1+g)^t\]
\[g = \left(\frac{x_t}{x_0}\right)^{1/t}-1\]
Il s’agit du taux de croissance moyen composé de la série entre \(x_t\) (en dernière période) et \(x_t\)
Lorsque l’on calcule le taux de croissance entre deux périodes seulement (disons \(x_0\) et \(x_1\)), on retrouve la formule habituelle du taux de croissance (car \(t=1\)):
\[ g = \frac{x_1 - x_0}{x_0} = \left(\frac{x_1}{x_0}\right)^{1/1}-1 \]
À ne pas comprendre avec la moyenne des taux de croissance:
\[ \bar{g} = \frac{1}{t}\sum_{i=1}^t{g_i} \]
g et \(\bar{g}\) sont identiques seulement si le taux de croissance est constant pour toutes les périodes t.
La transformation en logarithme (passer de \(x_t\) à \(log(x_t)\)) est très courante en économie, surtout avec des séries temporelles caractérisées par une croissance exponentielle.
Si \(x_t = x_0(1+g)^t\) est transformé en log et que nous isolons g, nous trouvons:
\[ log(1+g) = \frac{log(x_t)-log(x_0)}{t} \] Entre seulement deux période (par exemple d’une année à l’autre), \(t = 1\) et donc le taux de croissance peut être approximé facilement en prenant la différence en log. Quand \(g\) est petit, \(log(1+g)\) est une bonne approximation de \(g\).
Dans R:
[1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[38] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[75] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[112] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[149] 0